查看原文
其他

分类、有序、定量变量...你清楚你的变量类型吗?

2017-05-16 李延龙 医咖会

看到这个题目,想必有小伙伴不屑地想,分类/有序/定量变量,谁没听过。但是你真的了解这些不同类型的变量,真的用对了吗?今天就和大家一块儿念叨念叨“卡方检验中不得不聊的变量分类”。


SPSS软件中变量类型有Scale、Ordinal、Nominal三种(如下图),在进行Crosstab(卡方检验)时需要根据不同变量类型设置不同的统计量来检验,但是如何界定设定的变量属于什么类型?

分类变量

(Nominal/Categorical Variable)

分类变量,有时候也被称为名义变量,一般指两个及以上的分类,但是本身没有等级顺序之分。


举个栗子,性别就是一个只有两个分类的变量(男同学和女同学);头发的颜色也是一个分类变量,黑的、红的、黄的、蓝的……(各种假发的颜色,嘿嘿~~~),对于这些变量你是无法给他们排排序(红的最漂亮,开玩笑,蓝的才最漂亮)。


看(吃)了上面的栗子,相信大家对于没有等级顺序特点的分类变量印象深刻!但是这里要注意两个原则:① 不同类别之间要互相排斥,也就是说每个研究对象只能归到一类;② 所有研究对象均有归属,不可遗落。比如说上面提到性别(男 or 女);包含了性别的全部类别,同时不同类别之间又具有排斥性。

有序变量

(Ordinal Variable)

有序变量和分类变量长得有点儿像,但是两者还是有明显的区别。有序变量是指分类数大于等于3,且类别之间存在序次关系的响应变量。在对此类资料进行统计分析的过程中,我们发现,有序变量的“类间距”并不相等,也就是各类型之间的稀疏程度并不是均匀的。


再举个栗子,假设你手里的数据有一个变量——经济水平,有三个分类(低、中、高)。首先,你可以把调查人群按照经济收入水平分为低、中、高收入人群(想想自己还在低收入中游荡……),然后你还可以根据收入的高低,给调查对象排序。


还有一个大家比较熟悉的经济收入的孪生兄弟——教育水平(小学、中学、大学、研究生)。即使我们可以将教育水平从小到大进行排序,但是实际上每个教育水平之间差距并不是简单的相等。


一般情况下,我们对不同的教育水平会分别赋值1、2、3、4,进而比较小学“1”和中学“2”,中学“2”和大学“3”,或者大学“3”和研究生“4”之间的差别。相信有小伙伴会发现,这里的小学“1”和中学“2”的差距有可能大于中学“2”和大学“3”的差距(学习要从娃娃抓起,还是很正确的~~~)。


在这个栗子中,我们虽然满以为很正确地将调查人群按照教育水平分类赋值,但是事实上,不同赋值并不能反映教育水平之间的实际差距。如果有小伙伴将其作等距对待,这样的处理则往往是粗糙而不精确的。

定距变量

(Scale/Interval Variable)

定距变量(又叫连续性变量或者定量变量)与有序变量又有点儿像,但是定距变量可以确切地测量同一类别各个水平高低、大小次序之间的距离,因而可以做加减法。


比如说,上面例子中提到的经济收入,如果我们看原始数据——每个研究对象的具体收入,10000元、15000元、20000元。我们可以说第二个人收入比第一个人高5000元,第三个人比第二个人也高5000元。

SPSS操作时该如何设置

知道了变量分类,我们再来看看SPSS中Analyze→Crosstab→Statistics设置



(1) Chi-squares:卡方检验,主要用于分组变量(Row)和结局变量(Column)都为分类变量;Risk:可以计算OR值或者RR值,用来说明两个变量之间是否存在关联,以及关联程度,详见独立样本四格表的卡方检验 / 多个独立样本列联表的卡方检验


(2) McNemar:配对卡方检验,两种诊断试验结果变量(Row/Column)都为分类变量;Kappa:一致性检验,用于评价分类结果一致性和信度的一种重要指标,详见一致性检验和配对卡方检验


(3) Cochran’s and Mantel-Haenszel statistics:用于分层卡方检验


(4) Correlations:用于分析变量均为有序变量的相关分析,可同时输出Pearson相关和Spearman秩相关,同 Analyze →Correlate →Bivariate


(5) Ordinal:可用于分析变量均为有序变量的相关分析,常用Gamma检验,详见碰见有序分类资料怎么办


(6) Nominal:用于分析变量均为分类变量的关联性分析(独立性检验),并提供四种关联系数


(7) Nominal by IntervalEta是当一个变量为分类变量,而另一个变量为定量变量时的相关性测量指标。此时分类变量必须是数值型编码,例如,性别在数据库中应该是“1”(代表男性),“2”(代表女性),而不可以是“男”和“女”(字符型)。


Eta值范围在0到1之间,其中0值表示行变量和列变量之间无相关性,接近1的值表示高度相关。Eta适用于在区间刻度上度量的因变量(例如身高)以及具有有限类别的自变量(例如性别)。


统计学教程精彩回顾

1. SPSS详细操作:独立样本四格表的卡方检验

2. SPSS详细操作:多个独立样本列联表的卡方检验

3. SPSS详细操作:一致性检验和配对卡方检验

4. SPSS详细操作:碰见有序分类资料,怎么办?

医咖会微信:medieco-ykh

关注医咖会,一起学习统计学~


我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。


点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存